[Innovation Talk] 生成 AI でイノベーションを加速させる #AWSreInvent #AIM245-INT
はじめに
アノテーション 構築チームのいたくらです。
様々な業界の企業が生成 AI を使用してどのようにイノベーションを加速させたかを知ることができる Innovation Talk に参加してきました。
本ブログではそのレポートをお届けします。
セッション情報
- セッション ID : AIM245-INT
- タイトル: Innovate faster with generative AI
- スピーカー: Dr. Ebtesam Almazrouei (Technology Innovation Institute), Bratin Saha, John Hurley, Vipin Mayar, Arvind Jain, Tom Herzog
- レベル: 200 - Intermediate
セッションの概要
With the emergence of generative AI, we are at a tipping point in the widespread adoption of machine learning (ML). Join Dr. Bratin Saha, VP of AWS AI and ML Services, to hear how customers across industries are transforming their business with the latest breakthroughs in AI and ML, including generative AI. Discover the latest AWS innovations, hear from top customers, and explore where AI/ML is headed.
生成 AI の登場により、機械学習(ML)の普及は転換期を迎えています。AWS の AI・ML サービス担当副社長である Bratin Saha 博士と一緒に、生成 AI を含む AI・ML の最新のブレークスルーによって、さまざまな業界のお客様がどのようにビジネスを変革しているかをお聞きください。AWS の最新のイノベーションを発見し、トップクラスのお客様からお話を伺い、AI/ML の方向性を探ります。
学んだこと
- 生成 AI を使ったイノベーションの加速には以下の 5 つがポイントになる
- Choice and flexibility of models(モデルの選択と柔軟性)
- Differentiate with your data(データで差別化)
- Responsible Al integration(責任ある Al 統合)
- Low cost and performant infrastructure(低コストで高性能なインフラ)
- Generative Al-powered applications(生成 Al 搭載アプリケーション)
セッション内容
最初に生成 AI がなぜここまで大きな変革をもたらすのかについての説明があり、そのあとは上記の「学んだこと」に記載した 5 つのポイントについて各ゲスト企業の具体例と併せて紹介する、という流れで進みました。
以下、セッション内容についてピックアップして紹介します。
まずは生成 AI を使った簡単なユースケースを示す
「生成 AI(Amazon Bedrock)でスライドを作ってもらおうと思い、Amazon Titan にスライドのトピックを大きく 5 つ書いてくださいとお願いしたら、良いスライドができました。このままラスベガスで発表できますね。」といった内容のムービーがセッションの初めに流れました。
身近な生成 AI 例という感じだったので、AI を触ったことがない人でもイメージがしやすいと思いました。
機械学習の成長スピードについて
- 機械学習をクラウドで実行できる環境が整い始めたので、高速に成長しているため、コンピュータは 10 万倍、データは 100 倍、モデルサイズは 1000 倍に増えている
- 人間は生涯で 10 億個の言葉を耳にすると言われているため、基盤モデルに対して何兆個レベルで言葉を教える(トレーニングする)必要がある
- また基盤モデルのトレーニングは TB 単位のデータを使い、これは Wikipedia の数千倍のデータ量となる
このような協力なモデルをどのように活用すればいいか?というところで出てきたのが Amazon Q でした。
Amazon Q について
- Q を使って会社のデータに対して質問したり、会社のデータに対してアクションを起こすこともできる
- Q を使うときのポイントは、「どのモデルから選定してスタートするか」
- モデルによって強み弱みがあるので、どれが一番自分たちが求めるユースケースに適しているか探索が必要である
強み弱みの話は以下のスライドが分かりやすかったです。
MODEL1 は簡潔に回答しているので広告などに適していて、MODEL2 は詳しく回答しているからカスタマーサービスに適しているという例です。
Q の性能向上のために様々なモデルでテストを実行し、特に重要視したモデル評価のためのパラメータとして以下の 5 つが例に挙げられました。
- Cost effectiveness(費用対効果)
- Completeness(完全性)
- Low hallucination(幻覚の少なさ)
- Measure of the conciseness in response(応答の簡潔度合い)
- Measure of time to first byte and full response(最初の応答と完全な応答までの時間の測定)
多くのモデルに対してテストを実施したことで、モデルによる長所・短所が分かり、その結果 Q 開発チームは「コスト軸で優れたモデルを選び、コスト以外のパラメータに関しては最適化を実施する」という結論にたどり着いたとのこと。
また、最適化を実施した部分としては、使用するモデルの数と説明されており、それぞれのモデルがそれぞれ異なるタスクに特化していたため、複数モデルを使用するアーキテクチャにたどり着いたと説明されていました。
モデルが完成したためデータエンジニアリングに進み、データコネクタの構築・データ前処理・データ後処理・データ品質チェックなどに多くの時間を費やし、Q が適切なデータを迅速かつ効率的に取得できるように構築し、これで終わりだと思っていたら、実はそうではなかったといいます。
任意のエンタープライズアプリケーションに使用するためには、データアクセス制御を尊重する必要があるからです。
ユーザが持つ権利のある回答のみを提供しなければならないため、アクセス管理・ブロックトピック・機密トピックなどの項目を考慮しつつ回答できる責任ある AI の構築に多くの時間を費やす必要があったと説明されていました。
(責任ある AI ってそういう意味なんだなとこの説明で理解できました。)
各ゲスト企業の具体例
最後に生成 AI を使ったイノベーションの加速のポイント 5 つについて、各ゲスト企業の例と共に掘り下げていきました。
以下、各ゲスト企業の内容を簡単にまとめます。
- ヨーロッパ最大の格安航空会社 Ryanair
- SageMaker を利用して運賃などの動的価格設定や予測メンテナンスを構築
- 客室乗務員やパイロット向けの従業員用アプリもリリース
- Bedrock を使用して従業員用ボットを構築、内部テストが完了したら展開予定
- アメリカの投資信託の販売・運用会社 Fidelity Investments
- 重要と感じている 3 つのこと
- 非構造化データの整理
- KPI を定義し、1 箇所にまとめておく
- データの民主化
- 生成 AI / LLM(大規模言語モデル)で取り組んでいる 4 つのこと
- 関連する質問に答えるための Q&A ペアをほぼリアルタイムで生成
- コードを分析・パターンを理解して、新しいコード・テストケース・ドキュメントを生成
- ドキュメント検索を強化し、より正確な検索結果を提供
- 記事、ブログ、ソーシャルメディアなどのドラフトコンテンツを生成
- 機械学習でイノベーションを起こすためにはデータ品質がより重視されている
- 重要と感じている 3 つのこと
- エンタープライズ検索ソフト Glean
- Glean の検索では SageMaker などを使用してセマンティック言語モデルと Bedrock の LLM モデルをトレーニングし、ユーザに正確な回答を提供
- LLM が回答を生成した後、回答内のすべてのものにインライン引用を提供 → 顧客の回答精度に関する懸念に対処
- 顧客には独自のニーズと固有の制約があり、異なる LLM の使用が必要になる場合がある → Bedrock ならモデルをリポジトリから簡単に選択し、顧客にとって最適なものを選択可能
- 顧客はデータの安全性を確認したい → Bedrock はコンプライアンス認証とエンドツーエンド暗号化をサポート
- Glean の各顧客は独自の環境、安全な環境内で独自の AWS プロジェクトを実行しているため、カスタマイズされたモデルを含め会社のデータはその環境から出ることは無い
- Technology Innovation Institute (TII)
- 2022 年に、世界最大のアラビア語 NLP モデルの 1 つである Noor の構築を開始
- AWS インフラのおかげで数十億のパラメータと兆数のトークンを使用してモデルをトレーニングできた
- SageMaker を活用してペタバイト規模の Web データを前処理し、約 5 兆のトークンに相当する約 12 テラバイトのデータを生成(5 兆のトークンは約 300 万冊の本に相当、平均 400 ページ/本を想定)し、このデータセットでトレーニングを実施
- 最適化された AWS インフラのおかげで、最大 166 [teraFLOPS] を達成
- Falcon 7B から 4TB に移行し、Falcon 1,800 億パラメータに至るまで、コンピューティング能力も拡張する必要があり、SageMaker は 4,000 GPU までシームレスにスケールアップできた
- 実験に十分なキャパシティを確保し、大規模なコンピューティングへのアクセスを提供することは重要である
- ヘルスケアソフトウェア会社 Netsmart
- 医療提供者は週 2 日、40 % 以上の時間を費やして臨床ノートを作成している
- この時間でより多くの人を診ることができる
- 医療提供者が治療を加速させられるようにしつつ、臨床ノートの内容を最適化することが求められる
- AWS HealthScribe や Amazon Bedrock などのツール・ソリューションを使用してシステムを開発
- HealthScribe で患者と医療提供者との会話を記録し、Bedrock を使用して今後の適切な治療計画を提案するための情報を引き出すことができる
まとめ
最初に生成 AI や Amazon Q についての説明があることで、生成 AI 初心者でも本編の内容が理解しやすいと思いました。
また、各ゲスト企業の具体例があることで、「どういった課題を解決するために、どのように生成 AI を使うのか」が理解できて勉強になりました。
Innovation Talk は 1 時間位あり、各ゲスト企業のスピーカーは本ブログで簡単にまとめた話以外のお話もしてくださっているので、興味が湧いたら是非こちらの本編をご覧ください。
⇒ AWS re:Invent 2023 - Innovate faster with generative AI (AIM245) - YouTube
アノテーション株式会社について
アノテーション株式会社は、クラスメソッド社のグループ企業として「オペレーション・エクセレンス」を担える企業を目指してチャレンジを続けています。
「らしく働く、らしく生きる」のスローガンを掲げ、様々な背景をもつ多様なメンバーが自由度の高い働き方を通してお客様へサービスを提供し続けてきました。
現在当社では一緒に会社を盛り上げていただけるメンバーを募集中です。少しでもご興味あれば、アノテーション株式会社 WEB サイトをご覧ください。